Introduction

L’objectif de ce rapport est purement descriptif, il s’agit d’explorer un sensemble d’observations de données dépenses issue d’une enquête “budget de famille” menée par l’INSEE pour connaître le poids des grands postes de consommation dans le budget des ménages par tranche d’age. On a la répartition de la dépense annuelle moyenne par ménage sur les grands postes de consommation pour l’ensemble de la population française.

En appliquant l’analyse en composantes principales, nous essayons de voir s’il y a des classes d’ages qui ont des profils de dépenses très proches, s’il ya des postes de dépenses qui évoluent de la même façon selon l’âge et quel typologie peut ont définir pour les individus à partir es variables et réciproquement.


Importation du jeu de donnée



Exploration et description du jeu de donnée


name type na mean disp median mad min max nlevs
pain.céréales integer 0 776.33333 135.79569 782.0 166.0512 545 1005 0
viandes integer 0 984.88889 224.57905 1027.5 177.1707 405 1342 0
poissons.fruits_de_mer integer 0 241.72222 84.00617 242.0 74.8713 64 427 0
lait.fromages.oeufs integer 0 558.33333 113.63564 565.0 128.9862 297 713 0
huiles.graisses integer 0 86.22222 18.21943 89.5 8.8956 34 111 0
fruits integer 0 247.16667 71.72927 245.5 63.7518 84 386 0
légumes integer 0 373.50000 85.23480 375.5 69.6822 177 549 0
sucre.produits_a_base_de_sucre_ou_cacao integer 0 244.27778 52.77678 245.0 57.8214 139 329 0
autres_produits_alimentaires integer 0 130.05556 27.98418 131.0 31.8759 81 187 0
café.thé.cacao integer 0 95.11111 24.47781 94.0 23.7216 39 142 0
eaux.boissons.jus integer 0 195.66667 38.60357 202.0 45.2193 118 248 0
autres_dépenses_alimentation integer 0 167.27778 79.07019 157.5 77.0952 73 390 0
boissons_alcoolisées integer 0 366.44444 132.45964 366.5 128.2449 188 720 0
restauration integer 0 1290.88889 615.32965 1193.0 750.9369 531 2768 0
tabac integer 0 328.83333 122.21064 338.0 73.3887 57 518 0
habillement.articles_chaussants integer 0 2078.44444 779.05744 2042.5 886.5948 716 3837 0
logement.eau.gaz.électricité integer 0 4475.83333 598.29918 4397.0 189.7728 3493 5855 0
ameublement.équipement_ménager integer 0 1941.16667 778.96026 1896.0 599.7117 875 4312 0
santé integer 0 955.94444 306.99099 981.0 153.4491 415 1776 0
transports integer 0 4187.22222 1609.85712 4468.0 1505.5803 1292 7458 0
communications integer 0 980.66667 214.70637 991.5 252.7833 513 1257 0
loisirs.culture integer 0 2405.50000 986.44789 2335.5 857.6841 1019 4968 0
enseignement integer 0 186.83333 120.87974 153.5 97.1103 6 456 0
services.hébergement integer 0 185.55556 110.66495 149.5 97.8516 61 464 0
autres_biens.services integer 0 3307.00000 972.66178 3303.0 819.1365 1856 5737 0
hors_champ_consommation_finale integer 0 8436.33333 5626.11229 7396.5 4241.7186 2175 26695 0
total_produits_alimentaires integer 0 4467.05556 993.26245 4539.0 1001.4963 2321 6409 0
total_alimentation integer 0 5757.88889 1502.63509 5632.0 1595.2776 3506 9177 0
total_non_alimentaire integer 0 21033.05556 5845.63919 21022.0 6049.0080 12431 35538 0
dépense_totale integer 0 26790.94444 7274.41285 26849.0 7717.6743 16197 44715 0
Restaurants integer 0 144.50000 196.51710 0.0 0.0000 0 496 0
Cafés.bars.et.assimilés integer 0 122.38889 174.71124 0.0 0.0000 0 470 0
Cantines integer 0 169.88889 299.88976 0.0 0.0000 0 932 0
Autres.dépenses.de.restauration integer 0 47.38889 63.51761 0.0 0.0000 0 161 0

Les données utilisées ici décrivent les dépense annuelle pour l’ensemble de la population française regroupé par tranche d’age (moins de 25 ans, de 25 à 34 ans, de 35 à 44ans, de 45 à 54 ans, de 55 à 64 ans, de 65 à 74 ans, 75 ans et plus) ou en fonction des revenus (par déciles : 10% des ménages ayant les revenus les plus faibles, les personnes ayant les revenus entre 10 et 20% les plus faibles, …).

Elles contiennent 18 individus décrits par 34 variables dont toutes sont des variables quantitatives discrètes. Ces variables correspondent au dépense annuelle moyenne par ménage sur les grands postes de consomation (pain et céréales, viandes, poissons et fruits de mer, boissons,tabac, eau et électricité, …). Sauf les variables de 27 à 31 qui expriment les totaux des dépenses des groupe d’individus.


Réalisation de l’ACP


Choix des élements actifs


On étudie les profils des ménages uniquement en fonction de leur dépense. Les colonnes de 1 à 26 et de 31 à 34 correspondent à leurs dépenses annuelle sur 30 différentes rubriques, ce sont les variables actives du jeu de donnée.

Pour les colones de 27 à 30, trois correspondent respectivement à des totaux partiels et une à la dépense totale calculés sur la base des variables actives. Donc ces variables n’appartiennent pas aux profils des postes de ménages et utilisent une information déja donnée par les autres variables. Nous les utiliserons comme variables illustratives.

Puisque nous allons s’intéresser dans notre étude à l’évolution des profils des dépenses selon l’age, et qu’on dispose de deux groupes d’individus (par tranche d’age et par décile), les individus de 1 à 7 seront donc utiliser comme des individus actives.


Calcule de l’ACP sur les individus/variables actifs


  • Individus actifs (lignes 1:7): individus qui sont utilisés lors de l’analyse en composantes principales.

  • Individus supplémentaires (lignes 8:18): les coordonnées de ces individus seront prédites en utilisant l’information et les paramètres de l’ACP obtenue avec les individus/variables actifs.

  • Variables actives (colonnes 1:27 & 31:24): variables utilisées pour l’ACP.

  • Variables quantitatives supplémentaires (colonnes 27:30): les coordonnées de ces variables seront prédites



Valeurs propres et Variances


Table de variance

eigenvalue variance.percent cumulative.variance.percent
Dim.1 17.55 58.51 58.51
Dim.2 10.24 34.14 92.66
Dim.3 1.29 4.28 96.94
Dim.4 0.61 2.04 98.98
Dim.5 0.22 0.73 99.72
Dim.6 0.09 0.28 100

Détermination des axes principaux


les valeurs propres (eigenvalues dans la table de variance) mesurent la quantité de variance (inertie) expliquée par chaque axe principal. Les valeurs propres sont grandes pour les deux premiers axes et petits pour les axes suivants.

Le pourcentage d’inertie expliquée par la 1er dimension qui est d’ordre 58.51% et par la 2eme dimension qui est d’ordre 31.14%. Ainsi la 1ere et 2eme dimension vont expliquer 92.66% de l’information qui est contenue dans le jeu de données.D’ou nous avons un exellent résumé qui synthétise presque parfaitement les variables. Alors que sur les dernières dimensions il ya très peu d’information, donc inutile de les étudier.

Autrement dit, les premiers axes 1 et 2 correspondent aux directions portant la quantité maximale d’information contenue dans le jeu de données.


Graphique des valeurs propres



Etude du nuage des Individus actifs


Graphe des Individus actives



Interprétation


Ce nuage de point traduit la quantité d’information disponible retenue par les deux premiers axes. On remarque qu’il ya une forte variabilité puisque le nuage de point est dispersé, les individus sont bien représentées.

On peut visuellement interpréter les proximités entre les individus. On observe que les individus de 35 à 44 ans et de 45 à 54 ans ont un comportement similaire puisuqe ils sont proche, c’est à dire leur dépense annuelle sont à peu prés les memes quel que soit le type de consommation.

Par contre, les individus de 35 à 45 ans et moins de 25 ans ont des comportements très différents, ces deux groupes sont complétement opposés sur le premier axe, ça veut des dépenses différentes.

De meme pour les individus ayant un age de 25 à 34 ans et de 65 à 74 ans qui sont opposés sur le deuxième axe, ils ont des comportements très différents.


Tableau des résultats


coord

Dim.1 Dim.2
Moins de 25 ans -6.12 4.71
De 25 à 34 ans 0.43 3.55
De 35 à 44 ans 4.5 1.51
De 45 à 54 ans 5.41 0.24
De 55 à 64 ans 2.61 -2.43
De 65 à 74 ans -1.73 -3.89
75 ans et plus -5.1 -3.68

cos2

Dim.1 Dim.2
Moins de 25 ans 0.61 0.36
De 25 à 34 ans 0.01 0.71
De 35 à 44 ans 0.82 0.09
De 45 à 54 ans 0.9 0
De 55 à 64 ans 0.48 0.42
De 65 à 74 ans 0.16 0.8
75 ans et plus 0.64 0.33

contrib

Dim.1 Dim.2
Moins de 25 ans 30.47 30.88
De 25 à 34 ans 0.15 17.55
De 35 à 44 ans 16.49 3.19
De 45 à 54 ans 23.79 0.08
De 55 à 64 ans 5.52 8.26
De 65 à 74 ans 2.43 21.12
75 ans et plus 21.14 18.91

dist

Dist
Moins de 25 ans 7.829197
De 25 à 34 ans 4.205248
De 35 à 44 ans 4.985965
De 45 à 54 ans 5.684480
De 55 à 64 ans 3.768101
De 65 à 74 ans 4.349148
75 ans et plus 6.382219

  • Contribution aux axes principaux :

On remarque les individus moins de 25 ans, De 45 à 54 ans, 75 ans et plus et De 35 à 44 ans ont des pourcentages de contribution élevés pour l’axe 1 qui correspondant respéctivement aux 30.47, 23.79, 21.14 et 16.49. Ces variables contribuent le plus à la difinition de la dimensions 1.

Tandis que, les individus De 65 à 74 ans, De 25 à 34 ans et De 55 à 64 ans ont des pourcentages de contribution élevés pour l’axe 2 qui correspondant respéctivement aux 21.12, 17.55 et 8.26. Ces variables contribuent le plus à la difinition de la dimensions 2.

Les variables les plus importantes peuvent être mises en évidence sur le graphe de barplot comme suit:

Reset

On peut voir que les variables moins de 25 ans, 75 ans et plus et De 45 à 54 ans contribuent le plus aux dimensions 1 et 2 puique ils depasse la contribution moyenne attendue (14.28% d’aprés la ligne du graph)

Total Contribution to Dim 1-Dim 2


Contribution to Dim 1


Contribution to Dim 2


  • Qualité de représentation :

On remarque que la somme des cos2 sur les deux composantes principales pour tous les individus est élevé qui est plus de 0.7 ce qui indique une bonne représentation sur ces deux axes.

Reset

Cos2 to Dim1 1-2



Etude du nuage des variables


Graphe des Variables actives


Le graphique ci-dessus est connu sous le nom de graphique de corrélation des variables. Il montre les relations entre toutes les variables.

On observe que toutes les variables sont loin de l’origine du graphique, cette distance mesure leurs qualités de représentation de ces.De plus il sont très proches ou meme sur le cercle de corrélation, d’ou il sont bien représentées par l’ACP.

Prenant par example:

  • Les variables eaux.boissons.jus, sucre.produits_a_base_de_sucre_ou_cacao, autres_biens.services et autres_dépenses_alimentation sont proche et meme il ya ceux qui sont confondu, d’où il sont corrélées positivement.

  • La variables logement.eau.gaz.électricité est opposée avec les variables fruits et huiles.graisses formant un angle presque 180°, d’où il sont corrélées négativement.

  • Les variables boissons_alcoolisées et santé forment un angle 90° avec les variables restauration et cantines , d’où il ne sont pas du tout corrélées.


Tableau des résultats pour les Variables


coord

Dim.1 Dim.2
pain.céréales 0.96 0.11
viandes 0.75 -0.66
poissons.fruits_de_mer 0.55 -0.83
lait.fromages.oeufs 0.96 -0.22
huiles.graisses 0.47 -0.87
fruits 0.34 -0.94
légumes 0.75 -0.66
sucre.produits_a_base_de_sucre_ou_cacao 0.97 -0.07
autres_produits_alimentaires 0.6 0.61
café.thé.cacao 0.84 -0.51
eaux.boissons.jus 0.97 0.22
autres_dépenses_alimentation 0.98 0.02
boissons_alcoolisées 0.6 -0.68
restauration 0.71 0.69
tabac 0.35 0.93
habillement.articles_chaussants 0.82 0.56
logement.eau.gaz.électricité -0.06 0.99
ameublement.équipement_ménager 0.98 -0.02
santé 0.62 -0.75
transports 0.86 0.47
communications 0.62 0.76
loisirs.culture 0.96 0.15
enseignement 0.37 0.58
services.hébergement 0.95 0.01
autres_biens.services 0.91 -0.16
hors_champ_consommation_finale 0.97 -0.24
Restaurants 0.92 0.15
Cafés.bars.et.assimilés 0.23 0.97
Cantines 0.68 0.67
Autres.dépenses.de.restauration 0.91 0.19

cor

Dim.1 Dim.2
pain.céréales 0.96 0.11
viandes 0.75 -0.66
poissons.fruits_de_mer 0.55 -0.83
lait.fromages.oeufs 0.96 -0.22
huiles.graisses 0.47 -0.87
fruits 0.34 -0.94
légumes 0.75 -0.66
sucre.produits_a_base_de_sucre_ou_cacao 0.97 -0.07
autres_produits_alimentaires 0.6 0.61
café.thé.cacao 0.84 -0.51
eaux.boissons.jus 0.97 0.22
autres_dépenses_alimentation 0.98 0.02
boissons_alcoolisées 0.6 -0.68
restauration 0.71 0.69
tabac 0.35 0.93
habillement.articles_chaussants 0.82 0.56
logement.eau.gaz.électricité -0.06 0.99
ameublement.équipement_ménager 0.98 -0.02
santé 0.62 -0.75
transports 0.86 0.47
communications 0.62 0.76
loisirs.culture 0.96 0.15
enseignement 0.37 0.58
services.hébergement 0.95 0.01
autres_biens.services 0.91 -0.16
hors_champ_consommation_finale 0.97 -0.24
Restaurants 0.92 0.15
Cafés.bars.et.assimilés 0.23 0.97
Cantines 0.68 0.67
Autres.dépenses.de.restauration 0.91 0.19

cos2

Dim.1 Dim.2
pain.céréales 0.92 0.01
viandes 0.56 0.44
poissons.fruits_de_mer 0.3 0.69
lait.fromages.oeufs 0.93 0.05
huiles.graisses 0.22 0.76
fruits 0.12 0.88
légumes 0.56 0.43
sucre.produits_a_base_de_sucre_ou_cacao 0.94 0
autres_produits_alimentaires 0.36 0.37
café.thé.cacao 0.7 0.26
eaux.boissons.jus 0.94 0.05
autres_dépenses_alimentation 0.96 0
boissons_alcoolisées 0.36 0.46
restauration 0.51 0.47
tabac 0.12 0.86
habillement.articles_chaussants 0.67 0.32
logement.eau.gaz.électricité 0 0.97
ameublement.équipement_ménager 0.97 0
santé 0.38 0.56
transports 0.73 0.22
communications 0.39 0.57
loisirs.culture 0.93 0.02
enseignement 0.14 0.33
services.hébergement 0.91 0
autres_biens.services 0.83 0.03
hors_champ_consommation_finale 0.93 0.06
Restaurants 0.84 0.02
Cafés.bars.et.assimilés 0.05 0.93
Cantines 0.47 0.44
Autres.dépenses.de.restauration 0.83 0.03

contrib

Dim.1 Dim.2
pain.céréales 5.23 0.12
viandes 3.16 4.29
poissons.fruits_de_mer 1.72 6.69
lait.fromages.oeufs 5.27 0.47
huiles.graisses 1.23 7.44
fruits 0.67 8.55
légumes 3.21 4.2
sucre.produits_a_base_de_sucre_ou_cacao 5.38 0.04
autres_produits_alimentaires 2.04 3.59
café.thé.cacao 3.99 2.57
eaux.boissons.jus 5.38 0.48
autres_dépenses_alimentation 5.46 0
boissons_alcoolisées 2.03 4.5
restauration 2.89 4.59
tabac 0.68 8.36
habillement.articles_chaussants 3.81 3.08
logement.eau.gaz.électricité 0.02 9.49
ameublement.équipement_ménager 5.51 0
santé 2.16 5.51
transports 4.18 2.17
communications 2.21 5.61
loisirs.culture 5.27 0.22
enseignement 0.79 3.23
services.hébergement 5.16 0
autres_biens.services 4.73 0.26
hors_champ_consommation_finale 5.31 0.54
Restaurants 4.78 0.22
Cafés.bars.et.assimilés 0.3 9.1
Cantines 2.65 4.32
Autres.dépenses.de.restauration 4.73 0.34

Variable mal représenté


Pour estimer la qualité de représentation des variables on utilise le cos2 en créant un bar plot comme l’illustre le graph ci dessous. On remarque que la variable enseignement est mal représentée avec un cos2 le plus faible qui est égale à 0.47.


Matrice de corrélation des variables pain.céréales, laits.fromages et logement.eau.gaz.électricité


La Matrice de corrélation nous indique que la variable logement.eau.gaz.électricité n’est pas corrélé ni avec la variable laits.fromages ni avec la varaible pain.céréales qu’on peut l’éstimier graphiquement avec le cercle de crrélation puisuqe logement.eau.gaz.électricité forme un angle 90° avec laits.fromages et pain.céréales ce qui indique qu’il sont indépendantes entre elles.

Tandis que les variables pain.céréales et laits.fromages sont fortement positivement corrélées avec un coef de 0.95. Puisque ces deux variables sont proche dans le cercle de corrélation, on peut éstimer cette corrélation.


Graphe des variables supplémentaires


***

Description automatique des axes factoriels


Dimension 1

correlation p.value
total_alimentation 0.99 0.00
ameublement.équipement_ménager 0.98 0.00
autres_dépenses_alimentation 0.98 0.00
sucre.produits_a_base_de_sucre_ou_cacao 0.97 0.00
eaux.boissons.jus 0.97 0.00
hors_champ_consommation_finale 0.97 0.00
loisirs.culture 0.96 0.00
lait.fromages.oeufs 0.96 0.00
pain.céréales 0.96 0.00
services.hébergement 0.95 0.00
dépense_totale 0.92 0.00
Restaurants 0.92 0.00
autres_biens.services 0.91 0.00
Autres.dépenses.de.restauration 0.91 0.00
total_produits_alimentaires 0.88 0.01
total_non_alimentaire 0.86 0.01
transports 0.86 0.01
café.thé.cacao 0.84 0.02
habillement.articles_chaussants 0.82 0.02

Dimension 2

correlation p.value
logement.eau.gaz.électricité 0.99 0.00
Cafés.bars.et.assimilés 0.97 0.00
tabac 0.93 0.00
communications 0.76 0.05
poissons.fruits_de_mer -0.83 0.02
huiles.graisses -0.87 0.01
fruits -0.94 0.00

Analayse des résulats

D’après les résultats précèdents, nous pouvons conclure que l’axe 1 correspond plitot aux dépenses pour les produits alimentaires puisque la variable total_alimentation a une corrélation positive presque égale à 1, signifie qu’elle décrit parfaitement ce premier axe. D’où, les dépenses pour l’alimentation sont très liées au coordonnés sur l’axe 1. Autrement dit, le premier groupe ayant un age de 35 à 44 ans, 45 à 54 ans, 55 à 64 ans et 25 à 34 ans ont des dépenses élevés pour la nourriture .

Au contraire, le deuxième groupe ayant un age de Moins de 25 ans, De 65 à 74 ans et ** 75 ans et plus** avec des coordonnés faible sur l’axe 1, ont des dépenses faibles pour la nourriture.

Ce que nous pouvons expliquer par le fait qu’au de là de 60 ans, les parents sont en retraite et voient leurs ressources financières diminuer. De plus les personnes de 65 ans et plus, n’ont en général pas d’enfant à charge, et par suite le montant de leurs achats est moins élevé. Aussi pour les personnes moins de 25 ans, qui n’ont pas encore un source de revenu et que leur parent s’occupe d’eux.

L’alimentation est aussi une pratique sociale, familiale et culturelle qui permet de prendre place dans son environnement familial et social (repas de famille, sortie au restaurant, tradition et fêtes religieuses). Ce qui explique aussi le fait des dépenses élevés par le premier groupe (35 à 44 ans, 45 à 54 ans, 55 à 64 ans et 25 à 34 ans ) qui sont potentiellement des parents qui ont au moins un enfant, ou meme des nouveau marries dont ils se chargent de toutes les nécessités de leur familles. Ce qui explique aussi les dépenses élevés pour les loisirs, l’ameublement et l’équipement ménager. Puisque les variables ameublement.équipement_ménager et loisirs.culture sont fortement positivement corrélés avec l’axe 1.

• On peut conclure que l’axe 1 oppose les individus situés à droite du graph qui ont des dépenses élevées des individus situés à gauche du graph qui ont des dépenses faibles pour les produits alimentaireset non alimentaires comme les loisirs, les cultures et l’ameublement.

Variabilité

Dans le deuxième axe, les variables logement.eau.gaz.électricité, Cafés.bars.et.assimilés, tabac et communications sont fortement corrélées avec l’axe 2. Ça veut dire ce premier groupe ayant un age de Moins de 25 ans, 25 à 34 ans et 35 à 44 ans ont des dépenses élevés pour ces derniers besoins puisque ces variables ont de forte coordonnées sur l’axe 2.

Au contraire, les opposés de ce premier groupe par l’axe 2 ont des coordonnées faibles sur l’axe 2, sont le deuxième groupe ayant un age De 55 à 64 ans, De 65 à 74 ans et 75 ans et plus qui ont des dépenses faibles pour ces derniers besoins comme par example le logement, eau, gaz et électricité, ce que nous pouvons l’expliquer par le fait que les agés de 55 ans et plus, leur consommation en eau, gaz et électricité diminue puisque ils vient seul et leur enfant part pour poursuivre leurs études ce qui explique que le groupe des jeunes ayant un age de moins de 25 ans qui dépensent le plus pour logemet , eau, gaz et éléctricité. Au contraire pour le groupe de 25 ans et plus, ou le nombre de leur famille est grand.

Par apport aux aliments de fruits, huiles graisses, poissons et fruit de mer, on remarque qu’ils ont des corrélations négatives avec l’axe 2. Cela signifie que le deuxième groupe qui ont un age De 55 à 64 ans, De 65 à 74 ans et 75 ans et plus ayant des coordonnés faibles sur le deuxième axe, ont des dépenses élevés pour ces derniers besoins. Au contraire, le premier groupe Moins de 25 ans, 25 à 34 ans et 35 à 44 ans ayant de forte coordonnés sur ce deuxième axe, ont des dépenses faibles pour ces besoins. Les fruits, les poissons et les fruits de mer sont connus pour etre bénéfiques pour la mémoire et la concentration et les huiles et graisses sont très bonnes pour la santé. Ce qui explique les habitudes différentes des deux groupes dont les plus agés de 55 ans et plus, cherche à avoir une alimentation saine et équilibrée pour garder une bonne santé. Alors que les jeunes ont un mode de vie différent, ils dépensent plus sur leur activités quotidiennes comme les cafés bars et le tabac.

• On peut conclure que l’axe 2 oppose les groupes des vieux situées en bas du graph qui dépensent le plus pour leurs bien (conscience pour leur santés), des groupes des jeunes situées en haut qui dépensent le plus sur leur mode de vie sans tenir compte aux mesures générale concernant leur santé.

Différenciation

Il y a donc une tendance générale dans les données, liée à l’âge, qui permet d’expliquer la variation de la dépense de plusieurs façons.